對於訓練集,驗證集,測試集的概念,很多人都搞不清楚。網上的文章也是魚龍混雜,因此,現在來把這方面的知識梳理一遍。讓我們先來看一下模型驗證(評估)的幾種方式。 在機器學習中,當我們把模型訓練出來 ...
對於訓練集,驗證集,測試集的概念,很多人都搞不清楚。網上的文章也是魚龍混雜,因此,現在來把這方面的知識梳理一遍。讓我們先來看一下模型驗證(評估)的幾種方式。 在機器學習中,當我們把模型訓練出來 ...
TSS: Total Sum of Squares(總離差平方和) --- 因變量的方差 RSS: Residual Sum of Squares (殘差平方和) --- 由誤差導致的真 ...
線性回歸模型比較常見的特征選擇方法有兩種,分別是最優子集和逐步回歸。此外還有正則化,降維等方法。 1,最優子集(Best Subset Selection):從零號模型(null model) ...
虛擬變量陷阱(Dummy Variable Trap):指當原特征有m個類別時,如果將其轉換成m個虛擬變量,就會導致變量間出現完全共線性的情況。 假設我們有一個特征“性別”,包含男性和女性兩個 ...
什么是超參數? 機器學習模型中一般有兩類參數:一類需要從數據中學習和估計得到,稱為模型參數(Parameter)---即模型本身的參數。比如,線性回歸直線的加權系數(斜率)及其偏差項(截距)都是模型 ...
之前在《訓練集,驗證集,測試集(以及為什么要使用驗證集?)(Training Set, Validation Set, Test Set)》一文中已經提過對模型進行驗證(評估)的幾種方式。下面來回顧一 ...
自助法(Bootstraping)是另一種模型驗證(評估)的方法(之前已經介紹過單次驗證和交叉驗證:驗證和交叉驗證(Validation & Cross Validation))。其以自助采樣 ...
一,定義 異常點(Outlier):殘差很大的點(即:因變量y的值是極端值的觀測值) 高杠桿點(High Leverage Point):遠離樣本空間中心的點(即:自變量x的值是極端值的觀測值) ...
因為光看模型在訓練集上的表現容易導致過擬合,因此回歸模型通常有兩種評價方式,一種是看驗證/交叉驗證的結果,另一種是對訓練集上的表現結果進行修正,常見指標有:AIC,BIC,Cp,adjusted R2 ...
特征縮放的幾種方法: (1)最大最小值歸一化(min-max normalization):將數值范圍縮放到 [0, 1] 區間里 (2)均值歸一化(mean normali ...